GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents CLIPをテキスト→モーションクリップやビデオなどの複数の入力モダリティから効率的なスタイル表現を抽出する。潜在拡散モデルを学習し、適応的インスタンス正規化（AdaIN）層を介してCLIPスタイル表現。 https://t.co/kQVnELWTvq